智能论文笔记

FETA: Towards Specializing Foundation Models for Expert Task Applications

Amit Alfassy , Assaf Arbelle , Oshri Halimi , Sivan Harary , Roei Herzig , Eli Schwartz , Rameswar Panda , Michele Dolfi , Christoph Auer , Kate Saenko

分类：计算机视觉

2022-09-08

基础模型（FMS）已证明了前所未有的功能，包括零拍学习，高保真数据合成和范围内的概括。但是，正如我们在本文中所显示的那样，FMS在专家任务上的开箱即用表现较差（例如，从语言查询中检索汽车手册技术插图），数据是看不见的，或者属于长尾的数据用于FM预训练的大型数据集的数据分布的一部分。这强调了在此类专家任务上明确评估和芬太尼FMS的必要性，这可以说是在实际现实世界中最重要的任务。在本文中，我们提出了围绕教授FMS了解技术文档的任务，通过学习将其图形插图与相应的语言描述相匹配的任务围绕着了解技术文档的任务。我们的FETA基准重点是公共汽车手册和销售目录手册中的文本对图像和图像到文本检索。 FETA配备了完全自动注释提取的程序（接受后将发布代码），从而使Feta轻松扩展到将来更多的文档类型和应用域。我们的自动注释导致自动性能指标显示，该指标与在人类策划注释中计算的指标一致（也发布）。我们提供多个基线和对FETA的流行FM的分析，从而导致一些有趣的发现，我们认为这对FM社区非常有价值，为现实世界中FMS应用于当前被标准基准的“忽视”的实践专家任务铺平了道路。在常见对象上。

translated by 谷歌翻译

Garment Avatars: Realistic Cloth Driving using Pattern Registration

Oshri Halimi , Fabian Prada , Tuur Stuyck , Donglai Xiang , Timur Bagautdinov , He Wen , Ron Kimmel , Takaaki Shiratori , Chenglei Wu , Yaser Sheikh

分类：计算机视觉

2022-06-07

虚拟网格是在线通信的未来。服装是一个人身份和自我表达的重要组成部分。然而，目前，在培训逼真的布置动画的远程介绍模型的必需分子和准确性中，目前无法使用注册衣服的地面真相数据。在这里，我们提出了一条端到端的管道，用于建造可驱动的服装代表。我们方法的核心是一种多视图图案的布跟踪算法，能够以高精度捕获变形。我们进一步依靠跟踪方法生产的高质量数据来构建服装头像：一件衣服的表达和完全驱动的几何模型。可以使用一组稀疏的视图来对所得模型进行动画，并产生高度逼真的重建，这些重建忠于驾驶信号。我们证明了管道对现实的虚拟电视应用程序的功效，在该应用程序中，从两种视图中重建了衣服，并且用户可以根据自己的意愿进行选择和交换服装设计。此外，当仅通过身体姿势驱动时，我们表现出一个具有挑战性的场景，我们可驾驶的服装Avatar能够生产出比最先进的面包质量明显更高的逼真的布几何形状。

translated by 谷歌翻译

Federated Unlearning: How to Efficiently Erase a Client in FL?

Anisa Halimi , Swanand Kadhe , Ambrish Rawat , Nathalie Baracaldo

分类：机器学习

2022-07-12

由于隐私立法赋予用户有权被遗忘的权利，因此使模型忘记其某些培训数据已经成为必不可少的。我们探讨了删除任何客户在联邦学习（FL）中的贡献的问题。在FL回合中，每个客户都进行本地培训，以学习一个模型，以最大程度地减少其私人数据的经验损失。我们建议通过逆转学习过程，即训练模型\ emph {最大化}局部经验损失来对客户（将要删除）进行学习。 In particular, we formulate the unlearning problem as a constrained maximization problem by restricting to an $\ell_2$-norm ball around a suitably chosen reference model to help retain some knowledge learnt from the other clients' data.这使客户可以使用投影的梯度下降来执行学习。该方法确实不需要全局访问用于培训的数据，也不需要由聚合器（服务器）或任何客户端存储的参数更新历史记录。 MNIST数据集的实验表明，所提出的未学习方法是有效的。

translated by 谷歌翻译

BusiNet -- a Light and Fast Text Detection Network for Business Documents

Oshri Naparstek , Ophir Azulai , Daniel Rotman , Yevgeny Burshtein , Peter Staar , Udi Barzelay

分类：计算机视觉 | 人工智能

2022-07-04

对于数字化或索引物理文档，光学特征识别（OCR）是从扫描文档中提取文本信息的过程，是一项重要技术。当文档在视觉上损坏或包含非文本元素时，现有技术会产生差的结果，因为错误的检测结果可能会极大地影响OCR的质量。在本文中，我们提出了一个针对商务文件的businet的检测网络。业务文件通常包括敏感信息，因此无法将其上传到OCR的云服务。Businet被设计为快速和轻巧，因此可以在本地避免使用隐私问题。此外，Businet旨在使用专门的合成数据集来处理扫描的文档损坏和噪声。通过采用对抗性训练策略，该模型可实现可观的噪音。我们对可公开可用的数据集进行评估，以证明我们的模型的有用性和广泛适用性。

translated by 谷歌翻译

Pixels2Pose: Super-Resolution Time-of-Flight Imaging for 3D Pose Estimation

Alice Ruget , Max Tyler , Germán Mora Martín , Stirling Scholes , Feng Zhu , Istvan Gyongy , Brent Hearn , Steve McLaughlin , Abderrahim Halimi , Jonathan Leach

分类：计算机视觉

2021-10-11

单光子敏感的深度传感器正在越来越多地用于人类姿势和手势识别的下一代电子。但是，具有成本效益的传感器通常具有低空间分辨率，从而将其用于基本运动识别和简单的对象检测。在这里，我们执行一个时间到空间映射，从而大大增加了简单飞行时间传感器的分辨率，即〜初始分辨率为4 $ \ times $ 4像素到分辨率32 $ \ times $ 32像素的深度图像。然后，可以将输出深度图用于准确的三维人姿势估计多人。我们开发了一个新的可解释框架，该框架为我们的网络如何利用其输入数据提供了直觉，并提供了有关相关参数的关键信息。我们的工作大大扩展了简单的飞机飞行时间传感器的用例，并为将来应用于具有相似数据类型的其他类型的传感器（即雷达和声纳）开辟了有希望的可能性。

translated by 谷歌翻译